#políticas de lenguaje

Repensando la Regularización de Divergencia en RL para LLMs

Descubre DRPO: un nuevo método que reemplaza el recorte de ratio con regularización cuadrática suave para estabilizar el entrenamiento RL en modelos de lenguaje.

2026-06-09 · 1 min